Afin d’augmenter les performances de calculs de ses GPU (les fameux TFLOPS), NVIDIA ajoute des niveaux de précision supplémentaires : 8 bits avec Hopper, 6 et 4 bits avec Blackwell. Que cela implique-t-il ? Qu’en pensent les scientifiques ? Réponses croisées de Léo Hunout (IDRIS) et Stéphane Requena (GENCI).
Lors de l’annonce de son nouveau GPU Blackwell (B200) qui a la lourde tâche de remplacer Hopper (H100), NVIDIA mettait en avant une débauche de TFLOPS : jusqu’à pas moins de 20 000, contre 4 000 pour la génération précédente. Comme nous l’avions détaillé, deux points sont à prendre en compte, au-delà des chiffres.
Hopper ajoute FP8, Blackwell FP6 et FP4
Tout d’abord, Blackwell est un assemblage de deux GPU sur une seule et même puce, ce qui n’était pas le cas avec Hopper. Cela permet de doubler les performances à moindre coût. Ensuite, les TFLOPS sont avec une précision réduite en FP4.
Si on met en face Blackwell et Hopper sur une base comparable (un seul GPU, en FP8), on passe de 3 958 à 5 000 TFLOPS avec le saut de génération. Le FP8 a pour rappel été introduit par NVIDIA avec Hopper, et avec le succès que l’on connait du GPU pour l’entrainement et l’inférence des IA génératives (nous y reviendrons).
Mais Blackwell intègre deux GPU : les performances sont donc doublées, rien à redire sur ce point. Reste la question de la précision FP4 lancée par NVIDIA. Est-ce que cela correspond à une réalité sur le terrain des intelligences artificielles ? La baisse constante de la précision (FP32, FP16, Bfloat16, FP8…) permet-elle d’augmenter significativement les performances ?
Nous avons posé ces questions à deux spécialistes du domaine : Léo Hunout, ingénieur spécialiste en intelligence Artificielle à l'IDRIS (CNRS), ainsi que Stéphane Requena, directeur innovation et technologie au Grand équipement national de calcul intensif (GENCI).
Commentaires (8)
#1
Je soupçonnais un truc de ce genre dans mes commentaires quand on parlait des IA qui copiaient les œuvres existantes : la course à la performance des LLM les transformaient en système de compression de l'information. Je ne pensais pas cependant être si près de la vérité.
#1.1
#1.2
Je pense que je ne m'en souvenais pas quand j'ai fait ce type de commentaires qui portait aussi sur la génération d'images, mais de toute façon, les technos de compression ont les mêmes fondements que ce soit du texte ou des images.
Historique des modifications :
Posté le 15/04/2024 à 12h25
Bon rappel.
Je pense que je ne m'en souvenais pas quand j'ai fait ce type de commentaire qui portait aussi sur la génération d'images, mais de toute façon, les technos de compression ont les mêmes fondements que ce soit du texte ou des images.
#1.3
C'est une grosse différence par rapport à d'autres modèles qui travaillent uniquement en pixel space, ce qui demande beaucoup plus de ressources.
#2
Comment peut on avoir 3 valeur sur 1 seul bit ? C'est 0 ou 1 si on veut le signe il faut 1 bit de plus pour l'encoder non ?
#2.1
Historique des modifications :
Posté le 15/04/2024 à 11h38
En fait, ce n'est pas un LLM à 1 bit, c'est une variante d'un LLM à 1 bit. La valeur ternaire se retrouve encodée sur 1,58 bits, d'où le nom. On peut retrouver l'article sur arxiv.org (en englais).
#2.2
Historique des modifications :
Posté le 15/04/2024 à 15h12
Pour des explications : https://arxiv.org/pdf/2402.17764.pdf
Posté le 15/04/2024 à 15h13
Pour des explications : https://arxiv.org/pdf/2402.17764.pdf
#3